« Qui, de l’humain ou de la machine, est le plus fort ? »

Au lancement de ChatGPT en novembre 2022, de multiples débats ont émergé, dont beaucoup ont tourné autour d’une interrogation vieille comme le monde : qui, de l’humain ou de la machine, est le plus fort ?

Or, au regard de l’importance pressentie de ces outils dans les futures pratiques professionnelles, la vraie question est en réalité plus nuancée : les humains réussissent-ils mieux un travail par eux-mêmes, ou lorsqu’ils s’appuient sur l’intelligence artificielle (IA) ? Plus précisément : sont-ils capables d’utiliser l’IA – de l’évaluer correctement et, le cas échéant, de corriger ses réponses – afin d’améliorer leurs performances ?

Une récente étude suggère que cette question n’est pas aussi tranchée qu’on pourrait le penser. Elle porte sur un devoir rendu lors d’un cours à HEC Paris, dans lequel chaque étudiant s’est vu attribuer au hasard deux études de cas.

Avec l’aide de ChatGPT

Pour l’une, les étudiants ont dû rédiger une réponse à la question en partant de zéro. Pour la seconde, ils ont reçu une réponse toute faite, qu’ils ont dû évaluer et, si nécessaire, corriger. Ils savaient que chaque réponse pouvait être fournie par ChatGPT, ce qui était effectivement le cas pour la plupart d’entre elles. Les réponses finales des étudiants ont été notées à l’aide du même système de notation : l’important était de rendre une réponse complète, qu’elle soit le résultat d’une correction ou non (« Taking the help or going alone : ChatGPT and class assignments », HEC Paris Research Paper, juin 2023).

Alors que le premier exercice reflète les tâches de travail « traditionnelles », le deuxième pourrait correspondre à de nombreux futurs emplois. De fait, si les outils d’IA deviennent aussi omniprésents que beaucoup le prédisent, le rôle de l’humain sera d’évaluer et de corriger les résultats produits par les chatbots.

Et pourtant, les étudiants réussissent moins bien ce deuxième exercice : la note moyenne de la version corrigée de la réponse toute prête était inférieure de 28 % à la note moyenne des étudiants ayant eux-mêmes rédigé leur réponse. Sur une même étude de cas, un étudiant ayant corrigé le travail de ChatGPT perdait en moyenne 28 points sur 100 par rapport à un étudiant travaillant tout seul. En somme, les étudiants obtiennent de beaucoup moins bons résultats si on leur fournit une aide de ChatGPT et qu’on leur demande de la corriger, que s’ils doivent fournir une réponse à partir de zéro.

Des biais cognitifs plus ou moins connus

Ces résultats s’expliquent-ils par une confiance démesurée dans les capacités de ChatGPT ? Les étudiants ont pourtant été explicitement préparés à se méfier des réponses fournies : ils ont été prévenus que ChatGPT avait été testé dans le cadre d’un devoir similaire et qu’il avait obtenu des résultats assez médiocres.

Il vous reste 48.9% de cet article à lire. La suite est réservée aux abonnés.

Source
Catégorie article Politique